02.3-DeepLearning-Loss of Classification

1. Classification as Regression

class 1 是編號1，class2是編號 2，class 3是編號 3，……。希望模型的輸出 y 可以跟 class 的編號越接近越好

問題：

3 個 class 若分別設為1, 2, 3，背後隱含 class 1 跟 class 2 比較相關，class 1 跟 class 3 比較不相關

寫成向量形式，任兩個 class 的距離都相同

產生多個數值

當目標只有 0 跟 1，而 y 有任何值，可使用 softmax 先把它 normalize 到 0 到 1 之間，這樣才好跟 label 計算相似度

經過計算後：

softmax 的輸入，稱作 Logit

二分類問題使用 Sigmoid 與 Softmax 是等價的

優化目標：减小 $\hat{y}$ 和 $y'$ 之間的差距 $e$

不同的損失函數：MSE, Cross-entropy, …
選擇 cross-entropy，因為比 MSE 更加適用於分類問題！

從優化角度出發進行討論，使用 MSE 時，左上角的位置雖然 Loss 很大，但梯度平坦，難以優化；而 Cross-entropy 則更容易收斂 ⇒ 改變 Loss function，也會影響訓練的過程

數學證明：